期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于微博文本的词对主题演化模型
史庆伟, 刘雨诗, 张丰田
计算机应用    2017, 37 (5): 1407-1412.   DOI: 10.11772/j.issn.1001-9081.2017.05.1407
摘要683)      PDF (939KB)(505)    收藏
针对传统主题模型忽略了微博短文本和文本动态演化的问题,提出了基于微博文本的词对主题演化(BToT)模型,并根据所提模型对数据集进行主题演化分析。BToT模型在文本生成过程中引入连续的时间变量具体描述时间维度上的主题动态演化,同时在文档中构成主题共享的“词对”结构,扩充了短文本特征。采用Gibbs采样方法对BToT参数进行估计,根据获得的主题-时间分布参数对主题进行演化分析。在真实微博数据集上进行验证,结果表明,BToT模型可以描述微博数据集中潜在的主题演化规律,获得的困惑度评价系数低于潜在狄利克雷分配(LDA)、词对主题模型(BTM)和主题演化模型(ToT)。
参考文献 | 相关文章 | 多维度评价
2. 科技文献中作者研究兴趣动态发现
史庆伟 李艳妮 郭朋亮
计算机应用    2013, 33 (11): 3080-3083.  
摘要626)      PDF (534KB)(363)    收藏
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题词项分布与作者主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。
相关文章 | 多维度评价